Collecte de données avec Europresse

Stage méthodes

Léo Mignot

2025-01-21

0. Éléments de cadrage

Me myself and I

  • Léo Mignot, Ingénieur de recherche au CNRS au CED.
  • Vous ?

Objectifs et programme

Créer un corpus d’articles de presse :

    1. récupérer des données Europresse
    1. convertir ces données dans un format plus exploitable (csv, iramuteq, etc.)
    1. pour produire des analyses

Sky is the limit

Pourquoi

  • Si tout va bien Christine vous parle des enjeux de pourquoi/comment depuis le début de la semaine

  • Ici mise en oeuvre pratique (même si se chevauche évidemment enjeux conceptuels, etc.)

  • Collecter des données presse et les mettre en forme pour pouvoir en faire une analyse plus ou moins poussée :

    • basique
    • statistique
    • textuelle (NLP, etc.)

Exemples

1. Utiliser Europresse

Stratégies de collecte et export des données
(welcome to heaven/hell)

Grandes lignes

(Suppose des choix scientifiques et méthodologiques)

  • mots clés (et les champs : titre, full text, etc.)
  • sources (i.e. les médias / zones géographiques)
  • dates (plage temporelle)
  • puis exporter

Des enjeux méthodologiques

  • Qu’est-ce qui est inclu et depuis quand ?
  • Les doublons, reprises et redites
  • Qu’est-ce qui fait l’objet d’un traitement médiatique ?
  • Plein d’autres :
    • Aricle Paul le Derf

Illustration en direct live

C’est normalement là que :

  • la connexion internet plante
  • Europresse bloque car trop grand nb de connexion
  • tout autre évènement pertubateur

2. Convertir les données

From html to …

Format HTML

  • Vous avez dejà vu une page internet ? mais pour de vrai ?
  • Fichiers HTML -> balisés
    • journal, auteur, date, etc.
  • Traiter et transformer le fichier
  • Pour passer en données tabultaires (ou autre selon les besoins)
    • csv, ligne étoilée iramuteq, etc.

cf. lignes/colones, indivius/variables

Convertir HTML vers un format plus exploitable

Pour convertir tout ça :

  • À la main (nope)
  • Créer un script adapté python/R
  • Utiliser des outils “tout faits”

Europarser

Accès : https://ceres.huma-num.fr/europarser/

Alternatives

  • D’autres personnes développent des parsers
  • Voir évolution dans le temps et vos cas d’usage
  • Exemple avec Émilien Schultz:

Parfois intégré aux logiciels

  • Dernière version d’Iramuteq propose l’import ?
  • Cortext également ?

Demo conversion en live

En avant

3. Exploiter les données

Format / usages

  • Adapter les formats de sortie aux usages que vous souhaitez en faire
  • Cas classiques :
    • traitements stats
    • analyse textuelle

Outils

  • Logiciels libres de traitement stat (jamovi, etc.)
  • Logiciels libres spécialisés (Iramuteq, Cortext)
  • La programmation : sky is the limit / “faites mieux”

Demo analyse live

Tests dans jamovi, Python, plus si affinité

  • Ça va foirer
  • On va casser des trucs
  • C’est normal